“情境(上下文)赌博机 / 情境多臂老虎机”问题:一种在线决策/机器学习设定——每次决策前都会观察到当前“上下文”(如用户特征、环境信息),算法在多个可选动作中选一个,并根据得到的即时反馈(奖励)学习,在“探索”(尝试新选择)与“利用”(选择当前最优)之间权衡,以最大化长期累计奖励。常用于推荐系统、广告投放、个性化干预与A/B测试升级版等。
The app uses a contextual bandit to choose which notification to send.
这个应用用情境赌博机算法来决定发送哪一种通知。
In a contextual bandit setting, the model selects an action based on user features and updates itself from the observed reward, balancing exploration and exploitation.
在情境赌博机设定中,模型会依据用户特征选择动作,并用观测到的奖励进行更新,在探索与利用之间取得平衡。
/kənˈtɛkstʃuəl ˈbændɪt/
“Contextual”来自 context(语境、情境)加形容词后缀 -ual;“bandit”原意为“强盗”,在“multi-armed bandit(多臂老虎机)”这一经典概率与决策模型中被借用来形容“不断拉不同拉杆、在不确定回报下做选择”的问题。“Contextual bandit”是在多臂老虎机模型基础上加入“上下文信息”的扩展。